호퍼 (마이크로아키텍처)

"오늘의AI위키"는 AI 기술로 일관성 있고 체계적인 최신 지식을 제공하는 혁신 플랫폼입니다.
"오늘의AI위키"의 AI를 통해 더욱 풍부하고 폭넓은 지식 경험을 누리세요.

1. 개요
2. 아키텍처
3. 그레이스 호퍼
4. 역사
5. H100 가속기 및 DGX H100
참조

1. 개요

호퍼는 엔비디아의 마이크로아키텍처로, TSMC 4N 공정을 통해 제작된 H100 GPU를 포함한다. 호퍼 아키텍처는 최대 144개의 스트리밍 멀티프로세서(SM)를 가지며, 텐서 메모리 가속기(TMA)를 통해 공유 메모리와 전역 메모리 간의 비동기 메모리 전송을 지원한다. SM당 FP32 처리량이 향상되었으며, 트랜스포머 엔진을 활용하여 전력 효율성을 높였다. 호퍼 H100은 최대 80GB의 HBM3 및 HBM2e 메모리를 지원하며, L2 캐시 용량과 대역폭이 증가했다. 2022년 발표되었으며, 그레이스 호퍼는 호퍼 기반 GPU와 그레이스 기반 CPU를 결합한 제품이다. H100 GPU는 고성능 컴퓨팅을 위해 설계된 엔비디아 DGX 시스템에 탑재되며, 2023년 AI 붐으로 수요가 급증했다.

2. 아키텍처

엔비디아 호퍼 H100 GPU는 TSMC 4N 공정을 사용하여 800억 개의 트랜지스터로 구현되었으며, 최대 144개의 스트리밍 멀티프로세서(SM)로 구성된다.^[4] SXM5 소켓 환경에서 엔비디아 호퍼 H100은 PCIe보다 더 나은 성능을 보여주었다.^[20]

2. 1. 스트리밍 멀티프로세서 (SM)

튜링 및 암페어 마이크로아키텍처를 개선했지만, 스트리밍 멀티프로세서(SM)당 최대 동시 워프 수는 64개로 유지되었다.^[15] 호퍼 아키텍처는 공유 메모리와 전역 메모리 간의 양방향 비동기 메모리 전송을 지원하는 텐서 메모리 가속기(TMA)를 제공한다.^[16] TMA에서 애플리케이션은 최대 5D 텐서를 전송할 수 있다. 공유 메모리에서 전역 메모리로 쓸 때, 요소별 축소 및 비트별 연산자를 사용하여 레지스터 및 SM 명령어를 피하면서 사용자가 워프 특화 코드를 작성할 수 있도록 할 수 있다. TMA는 `cuda::memcpy_async`를 통해 표출된다.^[15]

애플리케이션을 병렬화할 때 개발자는 스레드 블록 클러스터를 사용할 수 있다. 스레드 블록은 클러스터 내 다른 스레드 블록의 공유 메모리(분산 공유 메모리라고도 부름)에서 원자적 연산들을 수행할 수 있다. 분산 공유 메모리는 L2 캐시와 동시에 SM에 의해 사용될 수 있다. SM 간 데이터 통신에 사용될 때 이는 분산 공유 메모리와 L2의 결합된 대역폭을 활용할 수 있다. 최대 포터블 클러스터 크기는 8이지만 엔비디아 호퍼 H100은 `cudaFuncAttributeNonPortableClusterSizeAllowed` 기능을 사용하여 클러스터 크기 16을 지원할 수 있지만 잠재적으로 액티브 블록 수가 줄어들 수 있다.^[15] L2 멀티캐스팅 및 분산 공유 메모리를 사용하면 동적 랜덤 액세스 메모리 읽기 및 쓰기에 필요한 대역폭이 줄어든다.^[15]

호퍼는 이전 제품보다 SM·사이클 단위마다 2배 많은 FP32 작업을 통해 향상된 단정밀도 부동 소수점 형식 (FP32) 처리량을 제공한다. 또한 호퍼 아키텍처는 스미스-워터만 알고리즘을 포함한 새로운 명령어를 추가로 지원한다.^[15] 암페어 아키텍처와 마찬가지로 TensorFloat-32(TF-32) 연산이 지원된다. 두 아키텍처의 매핑 패턴은 동일하다.^[16]

2. 2. 메모리

엔비디아 호퍼 H100은 최대 80GB의 HBM3 및 HBM2e 메모리를 지원한다. HBM3 메모리 시스템은 엔비디아 암페어 A100의 2TB/s에 비해 50% 증가한 3TB/s를 지원한다. 아키텍처 전반에 걸쳐 L2 캐시 용량과 대역폭이 증가했다.

CUDA 컴퓨팅 커널은 개별 메모리 할당을 포함하여 자동 인라인 압축을 활용하여 더 높은 대역폭에서 메모리에 접근할 수 있다. 데이터와 압축 가능성은 언제든지 변경될 수 있으므로 이 기능이 애플리케이션에 사용 가능한 메모리 양을 늘려주지는 않는다. 메모리 압축기는 여러 압축 알고리즘 중에서 자동으로 선택한다.

엔비디아 호퍼 H100은 L1 캐시, 텍스처 캐시 및 공유 메모리를 결합하여 용량을 256KB로 늘렸다. 이전 버전과 마찬가지로 L1 및 텍스처 캐시를 통합 버퍼로 설계된 통합 캐시로 결합한다. cudaFuncAttributePreferredSharedMemoryCarveout 속성은 L1 캐시의 카브아웃을 정의하는 데 사용될 수 있다.

2. 2. 1. 메모리 동기화 도메인

호퍼 아키텍처에서 GPU는 펜스 작업을 통해 넷 캐스트를 줄여 메모리 작업 속도를 향상시킨다. CUDA 애플리케이션은 메모리 정렬 때문에 펜스나 플러시 작업을 할 때 간섭을 받을 수 있다. GPU는 어떤 쓰기가 보장되고 어떤 쓰기가 우연히 보이는지 알 수 없어 불필요한 메모리 작업을 기다려 펜스나 플러시 작업 속도가 느려질 수 있다. 예를 들어 커널이 GPU 메모리에서 계산을 하고 병렬 커널이 피어와 통신하면 로컬 커널은 쓰기를 플러시하여 NVLink나 PCIe 쓰기 속도가 느려진다.

2. 3. DPX 명령어

호퍼 아키텍처 수학 응용 프로그래밍 인터페이스(API)는 SM에서 하프 워드당 연산을 수행하는 `__viaddmin_s16x2_relu`와 같은 함수를 제공한다. 이 함수는

max(min(a + b, c), 0)

연산을 수행한다. 스미스-워터만 알고리즘에서는 3방향 최소값 또는 최대값 다음에 0으로 고정되는 `__vimax3_s16x2_relu`를 사용할 수 있다.^[16] 마찬가지로 호퍼는 니들만-분쉬 알고리즘의 구현 속도를 높인다.^[17]

2. 4. 트랜스포머 엔진

호퍼 아키텍처는 트랜스포머 엔진을 구현한 최초의 엔비디아(Nvidia) 아키텍처였다.^[4] 트랜스포머 엔진은 정밀도 손실이 허용 가능한 수준이라고 판단될 때, 더 높은 수치 정밀도(예: FP16)에서 더 빠르게 수행되는 낮은 정밀도(예: FP8)로 동적으로 줄여 계산 속도를 높인다.^[4] 또한 트랜스포머 엔진은 정밀도를 최대화하기 위해 선택된 정밀도 내에서 런타임에 가수 또는 지수에 비트를 동적으로 할당할 수 있다.^[5]

2. 5. 전력 효율성

SXM5 폼 팩터 H100의 열 설계 전력(TDP)은 700 와트이다. 비동기성과 관련하여 호퍼 아키텍처는 높은 수준의 활용도를 얻을 수 있으므로 더 나은 와트당 성능을 가질 수 있다.

3. 그레이스 호퍼

엔비디아의 그레이스 호퍼(Grace Hopper) GH200은 호퍼 기반 H200 GPU와 그레이스 기반 72코어 CPU를 단일 모듈에 결합한 것이다. 모듈의 총 전력 소모량은 최대 1000W이다. CPU와 GPU는 NVLink를 통해 연결되어 CPU와 GPU 메모리 간의 메모리 일관성을 제공한다.^[19]

4. 역사

2019년 11월, 트위터 계정 (@kopite7kimi)에서 암페어 이후의 다음 아키텍처가 미 해군 준장이자 컴퓨터 과학자인 그레이스 호퍼의 이름을 따서 호퍼라고 불릴 것이라는 정보가 유출되었다. 이 계정은 호퍼가 다중 칩 모듈 설계를 기반으로 하여 낭비를 줄이면서 수율을 높일 수 있다고 언급했다.^[20]^[7]

2022년 Nvidia GTC 컨퍼런스에서 호퍼가 공식적으로 발표되었다.^[21]^[8] 2023년에는 AI 붐으로 인해 H100의 수요가 급증했다. 오라클의 래리 엘리슨은 그 해 엔비디아 CEO 젠슨 황과의 만찬에서 그와 테슬라의 일론 머스크 및 XAI가 H100을 "구걸하고 있었다"고 말했다. 그는 이 상황을 "초밥과 구걸의 한 시간"이라고 묘사했다.^[22]^[9]

2024년 1월, Raymond James Financial의 애널리스트들은 엔비디아가 H100 GPU를 개당 25000USD에서 30000USD 사이의 가격으로 판매하고 있으며, 이베이에서는 개별 H100이 40000USD 이상에 판매되고 있다고 추정했다.^[10] 2024년 2월, 엔비디아는 H100 GPU를 장갑차에 실어 데이터 센터로 운송하고 있다는 보도가 있었다.^[11]

5. H100 가속기 및 DGX H100

모델	아키텍처	소켓	FP32 CUDA 코어	FP64 코어 (텐서 제외)	혼합 INT32/FP32 코어	INT32 코어	부스트 클럭	메모리 클럭	메모리 버스 폭	메모리 대역폭	VRAM	단정밀도 (FP32)	배정밀도 (FP64)	INT8 (비텐서)	INT8 밀집 텐서	INT32	FP4 밀집 텐서	FP16	FP16 밀집 텐서	bfloat16 밀집 텐서	텐서플로트-32 (TF32) 밀집 텐서	FP64 밀집 텐서	상호 연결 (NVLink)	GPU	L1 캐시	L2 캐시	TDP	다이 크기	트랜지스터 개수	공정	출시
H200	호퍼	SXM5	16896	4608	16896	해당 없음	1980MHz	6.3Gbit/s HBM3e	6144bit	4.8TB/s	141 GB HBM3e	67 TFLOPS	34 TFLOPS	해당 없음	1.98 POPS	해당 없음	해당 없음	해당 없음	990 TFLOPS	990 TFLOPS	495 TFLOPS	67 TFLOPS	900GB/s	GH100	25344 KB (192 KB × 132)	51200 KB	1000 W	814mm²	80 B	TSMC 4N	2023년 3분기
H100	호퍼	SXM5	16896	4608	16896	해당 없음	1980 MHz	5.2Gbit/s HBM3	5120bit	3.35TB/s	80 GB HBM3	67 TFLOPS	34 TFLOPS	해당 없음	1.98 POPS	해당 없음	해당 없음	해당 없음	990 TFLOPS	990 TFLOPS	495 TFLOPS	67 TFLOPS	900GB/s	GH100	25344 KB (192 KB × 132)	51200 KB	700 W	814mm²	80 B	TSMC 4N	2022년 3분기
A100 80GB	암페어	SXM4	6912	3456	6912	해당 없음	1410 MHz	3.2Gbit/s HBM2e	5120bit	1.52TB/s	80 GB HBM2e	19.5 TFLOPS	9.7 TFLOPS	해당 없음	624 TOPS	19.5 TOPS	해당 없음	78 TFLOPS	312 TFLOPS	312 TFLOPS	156 TFLOPS	19.5 TFLOPS	600GB/s	GA100	20736 KB (192 KB × 108)	40960 KB	400 W	826mm²	54.2 B	TSMC N7	2020년 1분기
A100 40GB	암페어	SXM4	6912	3456	6912	해당 없음	1410 MHz	2.4Gbit/s HBM2	5120bit	1.52TB/s	40 GB HBM2	19.5 TFLOPS	9.7 TFLOPS	해당 없음	624 TOPS	19.5 TOPS	해당 없음	78 TFLOPS	312 TFLOPS	312 TFLOPS	156 TFLOPS	19.5 TFLOPS	600GB/s	GA100	20736 KB (192 KB × 108)	40960 KB	400 W	826mm²	54.2 B	TSMC N7	2020년 1분기
V100 32GB	볼타	SXM3	5120	2560	해당 없음	5120	1530 MHz	1.75Gbit/s HBM2	4096bit	900GB/s	32 GB HBM2	15.7 TFLOPS	7.8 TFLOPS	62 TOPS	해당 없음	15.7 TOPS	해당 없음	31.4 TFLOPS	125 TFLOPS	해당 없음	해당 없음	해당 없음	300GB/s	GV100	10240 KB (128 KB × 80)	6144 KB	350 W	815mm²	21.1 B	TSMC 12FFN	2017년 3분기
V100 16GB	볼타	SXM2	5120	2560	해당 없음	5120	1530 MHz	1.75Gbit/s HBM2	4096bit	900GB/s	16 GB HBM2	15.7 TFLOPS	7.8 TFLOPS	62 TOPS	해당 없음	15.7 TOPS	해당 없음	31.4 TFLOPS	125 TFLOPS	해당 없음	해당 없음	해당 없음	300GB/s	GV100	10240 KB (128 KB × 80)	6144 KB	300 W	815mm²	21.1 B	TSMC 12FFN	2017년 3분기
P100	파스칼	SXM/SXM2	해당 없음	1792	3584	해당 없음	1480 MHz	1.4Gbit/s HBM2	4096bit	720GB/s	16 GB HBM2	10.6 TFLOPS	5.3 TFLOPS	해당 없음	해당 없음	해당 없음	해당 없음	21.2 TFLOPS	해당 없음	해당 없음	해당 없음	해당 없음	160GB/s	GP100	1344 KB (24 KB × 56)	4096 KB	300 W	610mm²	15.3 B	TSMC 16FF+	2016년 2분기

^[12]^[13]^[14]

참조

_[1] AV미디어 CUDA Programming Model for Hopper Architecture https://www.nvidia.c[...] Nvidia 2022-09-00
_[2] 웹사이트 Boosting Dynamic Programming Performance Using NVIDIA Hopper GPU DPX Instructions https://developer.nv[...] Nvidia 2022-12-08
_[3] 웹사이트 NVIDIA Hopper GPU Architecture Accelerates Dynamic Programming Up to 40x Using New DPX Instructions https://blogs.nvidia[...] Nvidia 2022-03-22
_[4] 웹사이트 H100 Transformer Engine Supercharges AI Training, Delivering Up to 6x Higher Performance Without Losing Accuracy https://blogs.nvidia[...] Nvidia 2023-05-29
_[5] 웹사이트 Nvidia’s Next GPU Shows That Transformers Are Transforming AI - IEEE Spectrum https://spectrum.iee[...] 2024-10-23
_[6] 웹사이트 NVIDIA: Grace Hopper Has Entered Full Production & Announcing DGX GH200 AI Supercomputer https://www.anandtec[...] 2023-05-29
_[7] 웹사이트 NVIDIA Next Generation Hopper GPU Leaked – Based On MCM Design, Launching After Ampere https://wccftech.com[...] 2019-11-16
_[8] 웹사이트 Nvidia reveals H100 GPU for AI and teases 'world's fastest AI supercomputer' https://www.theverge[...] 2022-03-22
_[9] 뉴스 Nvidia's Stunning Ascent Has Also Made It a Giant Target https://www.wsj.com/[...] 2024-02-27
_[10] 뉴스 Mark Zuckerberg indicates Meta is spending billions of dollars on Nvidia AI chips https://www.cnbc.com[...] 2024-01-18
_[11] 뉴스 Armored Cars and Trillion Dollar Price Tags: How Some Tech Leaders Want to Solve the Chip Shortage https://www.wsj.com/[...] 2024-02-14
_[12] 뉴스 NVIDIA Hopper GPU Architecture and H100 Accelerator Announced: Working Smarter and Harder https://www.anandtec[...] AnandTech 2022-03-22
_[13] 뉴스 NVIDIA Ampere Unleashed: NVIDIA Announces New GPU Architecture, A100 GPU, and Accelerator https://www.anandtec[...] AnandTech 2020-05-14
_[14] 웹사이트 NVIDIA Tesla V100 tested: near unbelievable GPU power https://www.tweaktow[...] 2017-09-17
_[15] 영상 CUDA Programming Model for Hopper Architecture https://www.nvidia.c[...] Nvidia 2022-09-00
_[16] 웹인용 Boosting Dynamic Programming Performance Using NVIDIA Hopper GPU DPX Instructions https://developer.nv[...] Nvidia 2023-05-29
_[17] 웹인용 NVIDIA Hopper GPU Architecture Accelerates Dynamic Programming Up to 40x Using New DPX Instructions https://blogs.nvidia[...] Nvidia 2023-05-29
_[18] 웹인용 H100 Transformer Engine Supercharges AI Training, Delivering Up to 6x Higher Performance Without Losing Accuracy https://blogs.nvidia[...] Nvidia 2023-05-29
_[19] 웹인용 NVIDIA: Grace Hopper Has Entered Full Production & Announcing DGX GH200 AI Supercomputer https://www.anandtec[...] 2023-05-29
_[20] 웹인용 NVIDIA Next Generation Hopper GPU Leaked – Based On MCM Design, Launching After Ampere https://wccftech.com[...] 2023-05-29
_[21] 웹인용 Nvidia reveals H100 GPU for AI and teases 'world's fastest AI supercomputer' https://www.theverge[...] 2023-05-29
_[22] 뉴스 Nvidia’s Stunning Ascent Has Also Made It a Giant Target https://www.wsj.com/[...] 2024-02-27

본 사이트는 AI가 위키백과와 뉴스 기사,정부 간행물,학술 논문등을 바탕으로 정보를 가공하여 제공하는 백과사전형 서비스입니다.
모든 문서는 AI에 의해 자동 생성되며, CC BY-SA 4.0 라이선스에 따라 이용할 수 있습니다.
하지만, 위키백과나 뉴스 기사 자체에 오류, 부정확한 정보, 또는 가짜 뉴스가 포함될 수 있으며, AI는 이러한 내용을 완벽하게 걸러내지 못할 수 있습니다.
따라서 제공되는 정보에 일부 오류나 편향이 있을 수 있으므로, 중요한 정보는 반드시 다른 출처를 통해 교차 검증하시기 바랍니다.

문의하기 : help@durumis.com